查看原文
其他

AI/ML数据基础设施采购指南

常华Andy Andy730
2025-01-01
现代存储解决方案解析
关于构建现代存储解决方案的观点众多。接下来,我们将探讨这些观点的共同点。
高性能计算(HPC)是推动科学进步的重要工具。尽管构成高性能计算基础设施的系统经历了重大变革,但存储解决方案在过去25-35年几乎没有变化。传统的存储平台设计复杂,性能模型有限,难以有效管理。这些平台通常由博士设计。然而,现代高性能计算平台已经转向使用强大的GPU,广泛应用于各种行业,如媒体与娱乐、金融科技、生命科学和高性能数据分析。尽管如此,仍有一些数据在使用传统的存储解决方案,这显然是上世纪的技术。HPC计算平台的主要目标是实现卓越的结果和成效,因此选择现代存储解决方案至关重要。
在寻找适合应用环境的现代解决方案时,不仅要考虑当前的需求,还要着眼于未来。下面我们将列出现代存储解决方案的关键特征。通过仔细权衡这些因素,确保所选方案既满足当前工作负载的要求,又能适应未来的发展,从而打造真正现代化的存储解决方案。

现代存储解决方案的十大关键特征
1. 赋能“云优先”能力;软件定义
现代解决方案是软件定义的,既适用于云端、本地,也可用于混合模式,同时不会对功能或容量产生任何限制。
2. 智能化软件
现代解决方案能够最大程度地减少管理和配置的复杂性,同时智能地管理数据在各个存储层级之间的位置。
3. 云和本地的灵活选择
现代解决方案允许客户在本地环境中自由选择硬件和组件。同时,当客户选择投资云端时,还应能够选择云服务商。
4. 统一全局命名空间
现代解决方案通过创建一个单一的命名空间,让用户能够访问所有层级的数据,从而克服了传统的分层存储解决方案。这不仅提高了用户体验,还消除了进行数据检索或数据复制所需的繁琐步骤。
5. 部署独立性
现代解决方案允许客户充分利用云和/或新技术,这些技术正逐渐成为主流,而不会受到旧技术或已经过时的未经验证技术的限制。
6. 高性能与低延迟:速度
如今,由GPU驱动的应用程序,如深度学习、AI和机器学习(AI/ML),需要一个巨大的数据管道来充分利用这些资源。现代解决方案应在最高性能水平上运行,同时保持最低的延迟,无需根据数据集的多样性和特性进行重新配置。
7. 内置数据保护
许多存储解决方案提供快照作为增强数据保护的方案。现代解决方案不仅具备这一功能,还将其集成到云资源中,以实现更快速的数据恢复。
8. 用户体验:简易性
充分利用员工资源是成功的关键之一。现代存储解决方案的体验应该是一致且可重复的,无论解决方案位于何处,无论是本地、云端还是混合云。
9. EB级容量:规模
随着数据量持续激增,存储解决方案也应满足独特和具体的需求。现代解决方案能够管理数万亿个文件和目录,以及EB级别的存储。
10. 多协议和跨协议支持
多协议已存在多年,但现代解决方案不仅提供多种访问协议,还提供跨协议支持,以通过任何协议同时访问数据。

数据驱动企业
根据埃森哲的观点,现代企业生成的数据量之大几乎难以想象,而且未来这个数量将以越来越庞大的规模增长。他们预测,到2025年,全球每天将产生超过450EB的数据。这就是埃森哲敦促企业充分利用数据驱动崛起的原因。
然而,多年来,传统的供应商为各种工作负载需求建立了独立的体系结构。例如,一个用于SAN,另一个用于NAS,还有一个用于对象存储。更糟糕的是,还经常发现为容量和性能单独构建的体系结构。如今,大多数企业都采用混合或多云战略,这增加了复杂性,因为存在多个不兼容的工具和流程,导致管理变得复杂。此外,随着数据的增长,跨多个独立体系结构进行管理变得越来越困难,并且为用户提供有意义且及时的访问也变得更加困难,同时不必维护多份数据副本。
最终,在简易性、速度、规模和可持续性之间需要做出权衡,而传统的体系结构显然无法满足数据驱动企业的需求。NAS虽然易于使用和管理,但对于现代应用程序来说性能不足。SAN或并行文件系统虽然提供性能,但复杂且昂贵。对象存储虽然提供规模,但性能不够理想。埃森哲指出,“84%的企业没有他们需要的数据平台”来真正提升到数据驱动企业的水平。在很多情况下,这加剧了81%的企业缺乏坚实数据战略的问题,导致无法充分利用数据的全部潜力。因此,我们需要寻找更好的方法。

如何识别存储领域的“老牌供应商”
让我们面对现实,在80年代拥有一台能播放你最喜欢的混音磁带的Sony Walkman,绝对是一件很酷的事。然而,如果今天你还在街上挥舞着它,人们可能会好奇你在宣传哪家博物馆。就像磁带在它们的时代曾经很炫一样,对于今天的需求来说已显得过时。因此,为了辨识“老牌供应商”,我们确定了以下六个方面,这些方面都表明供应商未能满足现代数据存储需求:
  1. 销售使用专用硬件构建的系统:如果目前仍在使用只能从存储供应商处获得定制专用硬件形式的存储解决方案,这表明尚未采用基于当前设计原则的解决方案,而是选择了传统的存储方式。
  2. 混合云受限:若当前存储供应商在本地和云端无法提供相同的规格,包括特性、CLI、性能和扩展性,这表明正在使用传统供应商,而非符合当前设计原则的解决方案。
  3. 规模和混合工作负载支持有限:在规划数据中心架构时,如果需要部署比物理资源要求更多的存储系统,这表明正在使用传统存储供应商。如果必须在系统寿命内做出无法根据需求灵活扩展或缩小的决策,这也表明正在使用传统存储供应商。
  4. 有限的总体性能和单客户端性能:若目前所使用的存储系统在单客户端性能上仍受限于大约十年前的水平,这表明正在使用传统存储供应商。另外,如果与十年前的数据相比,当前系统的总吞吐量/IOPS没有明显提升,这也意味着正在使用传统存储供应商。
  5. 数据备份和灾难恢复由其他人执行,或被忽视:若主要存储产品、备份产品和云产品属于不同的供应商,那么正在使用传统的存储供应商。如果存储供应商将备份和灾难恢复视为独立的事务,并采取双重数据存储方式,这也表明正在使用传统供应商。如果存储供应商强制使用第三方解决方案来确保可靠的备份或归档策略,同样表明正在使用传统供应商。如果重建期间存储系统的性能明显下降,这表明正在使用传统存储供应商。如果仍在使用块重建而非文件重建,这也表明在使用传统存储供应商。如果客户没有实施端到端的数据完整性保护(即每个块都应在客户端计算校验和,并在每一步验证以确保没有位衰减bit-rot),这也表明正在使用传统存储供应商。
  6. 需要做出权衡:若存储供应商提供的产品种类繁多,且每个产品在权衡方面存在细微差异,导致必须在不同项目中采用不同的混合解决方案,这表明正在使用传统供应商(例如,使用不同的实用工具进行快照、用于备份的快照、用于突发的快照等)。

现代工作负载是什么?
在过去的20年里,技术发生了翻天覆地的变化。高速连接已经非常普遍,计算速度达到了惊人的地步。想象一下自动驾驶汽车处理潜在事故情况并迅速做出反应的速度——它在毫秒内完成。数据正围绕我们不断生成:街头摄像头、购物中心、办公楼、你的汽车、你的手机、你的手表、你家的自动化和安全系统等等。
正如个人和消费者数据的速度与数量发生了变化,企业工作负载也发生了相应的变革——从客户端-服务器技术和关系型数据库,转向了边缘处理器或核心超级计算机上进行的机器学习和深度学习处理。
这催生了新的工作负载、应用场景和能力,使得以前无法实现的结果成为可能。以下是一些现代工作负载和应用场景的实例:
  • 生命科学在创纪录的时间内对基因组进行测序的能力、电子显微镜和图像处理中的AI。
  • 研究制药开发和研究中的药物发现和图像处理。
  • 金融服务新的交易算法、建模和模拟。
  • 汽车自主驾驶和训练,处理大量数据的模型。
  • 媒体与娱大文件处理、渲染大文件、8K流媒体视频后期制作等。
今天的工作负载,无论是传统的还是容器化的,都需要一种新型的存储,以提供所需的性能、可管理性和可扩展性,从而获得或维持企业的竞争优势。

现代存储平台的关键原则
简易性
将所有工作负载整合至一个平台,无论数据的配置如何。多年来,人们普遍认为要获得超高性能就必须牺牲简易性。然而,我们已成功破解了这一难题。我们的现代文件系统独具特色,将卓越的性能与简单可靠的管理相结合。无论是混合大小的文件还是不同数据配置,都不需要进行特殊的调整或重新配置。这使得在本地或云中部署、配置和管理存储变得轻而易举。
速度
单客户端性能最高可达162GB/秒的吞吐量和200万IOPS,云性能经过验证可达到2TB/秒。我们提供所需的高性能,以支持最严苛的应用程序和工作负载,显著提升洞察力的产生速度。我们的现代架构从零开始为闪存构建,并针对NVMe和云进行了优化,以推动突破性创新。
规模
我们实现了大规模的高性能计算,同时确保成本得到有效控制。现代工作负载和当前的混合云环境已经极大地改变了数据中心的需求。除了提供具有规模化文件系统的线性扩展之外,我们重新定义了云时代的可伸缩性,并允许客户在各个可能的维度上进行扩展。
可持续性
有数据显示,当前数据中心约占全球能源消耗的3%;如果不加以控制,到2030年这一比例可能升至8%。我们通过高速数据架构实现了GPU堆栈效率的10-50倍提升,从而降低了年度GPU运营能源消耗。此外,通过减少数据复制和增强云弹性,该架构将数据基础设施占地面积缩小了4-7倍。相比传统数据架构,我们的数据平台在典型的3-5年生命周期内每PB可节省超过260吨的CO2e。

选择现代存储时的30个注意事项
简易性
1. 精简的管理流程
2. 降低每PB的管理成本
3. 硬件无关性
4. 统一命名空间
5. 自动化数据优化
6. 内置数据保护
7. 整合数据孤岛
8. 支持Prometheus和Grafana监控
速度
9. 系统性能:IOPS/带宽
10. 提升工作负载性能
11. 为终端用户提供卓越性能
12. 迅速部署新应用程序
13. 对于混合文件大小和数据配置的零触摸调整
规模
14. 灵活的部署选择:本地、云端或混合云
15. 容量上/下的弹性扩展
16. 支持EB级的存储容量
17. 规模扩展以支持灾难恢复
18. 跨混合工作负载或可用性区域进行性能/计算规模扩展
可持续性
19. 最大化GPU利用率
20. 减少数据管道空闲时间
21. 充分利用“云爆发”(Cloud Bursting)
22. 低总体功耗足迹
23. 延长投资的可用寿命
关键功能
24. 具备完整的云原生能力
25. 容器支持
26. 支持多种数据类型(文件和对象)
27. 多协议/同时访问支持
28. 服务器供应商生态系统
29. 存储供应商生态系统
30. 采用最新的技术,如新的CPU、NVMe、服务器等。

-----

Source: A Buyer's Guide to AI/ML Data Infrastructure





---【本文完】---

近期受欢迎的文章:

  1. 2023年Q3数据中心基础设施市场报告

  2. 关于Amazon Express One及其对数据基础设施的影响的思考

  3. 数据中心变革:构建可持续AI基础设施(调查报告)

  4. AI推动数据中心基础设施支出激增

  5. 提升AI性能?重新审视存储基础设施和数据管道


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存